Ranking de Productos de IA

Ranking de Productos de IA

Busca la dinámica global de productos de IA

Busca información global de IA y descubre nuevas oportunidades de IA

Información de Noticias
Aplicaciones de Productos
Casos de Monetización
Tutoriales de IA

Tipo :

Información de Noticias
Aplicaciones de Productos
Casos de Monetización
Tutoriales de IA

2025-01-16 15:46:26.AIbase

Alibaba Cloud lanza el nuevo modelo de razonamiento matemático Qwen2.5-Math-PRM: la versión de 7B supera a GPT-4o

Hoy, el equipo de Tongyi de Alibaba Cloud ha lanzado oficialmente el nuevo modelo de recompensa de proceso de razonamiento matemático Qwen2.5-Math-PRM. Este modelo está disponible en dos tamaños, 72B y 7B, y su rendimiento supera significativamente a los modelos de recompensa de proceso de código abierto similares, especialmente en la identificación de errores de razonamiento. Sorprendentemente, la versión de 7B de Qwen2.5-Math-PRM supera al popular GPT-4o, un logro que marca un paso importante para Alibaba Cloud en el desarrollo de modelos de razonamiento.

Alibaba Cloud lanza el nuevo modelo de razonamiento matemático Qwen2.5-Math-PRM: la versión de 7B supera a GPT-4o

2025-01-16 10:42:26.AIbase

El equipo de Qwen de Alibaba lanza un nuevo modelo de recompensa de proceso, haciendo evolucionar el razonamiento matemático

El equipo de Qwen de Alibaba publicó recientemente un artículo titulado "Lecciones aprendidas en el desarrollo de modelos de recompensa de proceso en el razonamiento matemático", y lanzó dos nuevos modelos en la serie Qwen2.5-Math-PRM, con 7B y 72B parámetros respectivamente. Estos modelos superan las limitaciones de los marcos PRM existentes en el razonamiento matemático, mejorando significativamente la precisión y la capacidad de generalización de los modelos de razonamiento a través de técnicas innovadoras. El razonamiento matemático ha sido siempre un gran desafío para los modelos lingüísticos grandes (LLM), especialmente en los pasos intermedios de razonamiento, donde los errores...

El equipo de Qwen de Alibaba lanza un nuevo modelo de recompensa de proceso, haciendo evolucionar el razonamiento matemático

2024-12-15 10:23:35.AIbase

Alibaba presenta PROCESSBENCH, una nueva prueba de referencia de IA para evaluar la capacidad de identificación de errores en el razonamiento matemático

Recientemente, los investigadores del equipo Qwen de Alibaba presentaron una nueva prueba de referencia llamada "PROCESSBENCH", diseñada para medir la capacidad de los modelos de lenguaje para identificar errores de proceso en el razonamiento matemático. Con los notables avances de los modelos de lenguaje en tareas de razonamiento complejo, los investigadores en este campo han descubierto que, a pesar del excelente rendimiento de los modelos, todavía enfrentan desafíos al abordar ciertos problemas difíciles. Por lo tanto, desarrollar un método de supervisión eficaz es de suma importancia. Actualmente, las pruebas de referencia para la evaluación de modelos de lenguaje presentan algunas deficiencias.

Alibaba presenta PROCESSBENCH, una nueva prueba de referencia de IA para evaluar la capacidad de identificación de errores en el razonamiento matemático

2024-11-18 07:58:19.AIbase

Kimi lanza k0-math, un modelo de razonamiento matemático: habilidades matemáticas a la par de la serie o1 de OpenAI

Kimi, el asistente inteligente de la cara oscura de la luna, anuncia el lanzamiento de su nuevo modelo de razonamiento matemático k0-math. El modelo k0-math ha demostrado un rendimiento excepcional en varias pruebas de referencia de habilidades matemáticas, superando a los modelos o1-mini y o1-preview de la serie o1 de OpenAI en cuatro pruebas de referencia matemáticas: exámenes de secundaria, exámenes de acceso a la universidad, exámenes de ingreso a la universidad de posgrado y MATH, que incluye problemas de concursos de nivel principiante.

Kimi lanza k0-math, un modelo de razonamiento matemático: habilidades matemáticas a la par de la serie o1 de OpenAI

2024-10-14 14:51:30.AIbase

El equipo de investigación de Apple publica el nuevo benchmark GSM-Symbolic: ¡revela las deficiencias en el razonamiento matemático de los modelos lingüísticos grandes!

Recientemente, los investigadores de Apple realizaron un estudio profundo sobre la capacidad de razonamiento matemático de los modelos lingüísticos grandes (LLM), lanzando una nueva prueba de referencia llamada GSM-Symbolic. Esta nueva prueba de referencia se basa en GSM8K, que se utiliza principalmente para evaluar las habilidades matemáticas básicas. Aunque muchos LLM han mejorado su rendimiento en GSM8K, la comunidad científica todavía tiene dudas sobre la capacidad de razonamiento de estos modelos, considerando que los indicadores de evaluación existentes pueden no reflejar completamente sus capacidades reales. El estudio revela...

El equipo de investigación de Apple publica el nuevo benchmark GSM-Symbolic: ¡revela las deficiencias en el razonamiento matemático de los modelos lingüísticos grandes!

2024-07-19 16:36:43.AIbase

DeepSeek lanza el modelo DeepSeek-V2-Chat-0628 de código abierto: mejora en la capacidad de razonamiento matemático

La clasificación más reciente de LMSYS Chatbot Arena, el campo de batalla de modelos grandes de la organización LMSYS, muestra que DeepSeek-V2-0628 ocupa el primer lugar en la clasificación general de modelos de código abierto a nivel mundial, superando a numerosos modelos de código abierto como Llama3-70B, Qwen2-72B, Nemotron-4-340B y Gemma2-27B. En comparación con la versión 0507, DeepSeek-V2-0628 ha mejorado significativamente en razonamiento matemático de código, seguimiento de instrucciones, juegos de roles y JS.

DeepSeek lanza el modelo DeepSeek-V2-Chat-0628 de código abierto: mejora en la capacidad de razonamiento matemático